Day17-sklearn(2)LabelEncoder、train_test_split

2021 iThome 鐵人賽

DAY 17

AI & Data

30Day 從一介凡人羽化成資料科學初學者系列第 17 篇

13th鐵人賽

Eating_o

2021-09-19 12:47:05

770 瀏覽

分享至

今天要介紹這兩個sklearn的方法
也是資料前處理常用到的

LabelEncoder:
就如同字面上意思，會將標籤做編碼
當我們想把一筆資料拿去train時，必須將所有的值都轉成數字，這樣電腦才能看懂，因為像是字串此類型的資料是無法直接拿下去train，而有時因為資料眾多將每個字串都轉成數字的工作將會變得耗時又繁瑣。
LabelEncoder就能快述的幫助我們做到快述的編碼
import方式:

我先建立一個示範資料

使用方式:
將LabelEncoder方法指派給一個變數
之後使用fit_transform後方填入要encoder的值

輸出結果:
同為apple的字串被編為0、banana為1、orange為2

train_test_split:
快速的將資料分為訓練集和驗證集
import方式:

使用方式:
train_test_split後方參數第一個為特徵值、第二個target、第三個是要分成的比例
之後會回傳四個值順序為訓練集特徵值、驗證集特徵值、訓練集target、驗證集traget

使用範例:
我使用在Titanic資料集，train_set總共有891筆資料根據test_size=0.1
所以分成801筆與90筆